04. 实现
实现:TD(0)
你可以在下方找到 TD(0)(或一步 TD)的伪代码。

TD(0) 保证会收敛于真状态值函数,只要步长参数 \alpha 足够小。常量 \alpha MC 预测也是这种情况,如果你还记得的话。但是,TD(0) 具有一些优势:
- 虽然 MC 预测必须等到阶段结束时才能更新值函数估值,但是, TD 预测方法在每个时间步之后都会更新值函数。同样,TD 预测方法适合连续性和阶段性任务,而 MC 预测只能应用于阶段性任务。
- 在实践中,TD 预测的收敛速度比 MC 预测的快。(但是,没有人能够证明这一点,依然是一个需要验证的问题。)你可以花时间在自己的实现中检查这一点!要获取了解如何运行此类分析的示例,请参阅该教科书的第 6.2 个示例。
请在下个部分完成 Temporal_Difference.ipynb
的第 0 部分:探索 CliffWalkingEnv 和第 1 部分:TD 预测:状态值。请记得保存内容!
你可以查看 Temporal_Difference_Solution.ipynb
的相应部分,检查你的解决方案是否正确。